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基于 词 向 量 与 TextRank 的 关键 词 提取 方法 * 
周 锦 章 ， 崔 晓 晖 - 


(武汉 大 学 国际 软件 学 院 , 武汉 430072) 


摘 要 : 针对 词汇 语义 的 差异 性 对 TextRank 算法 的 影响 进行 了 研究 ， 提 出 一 种 基于 词 向 量 与 TextRank 的 关键 词 抽取 
方法 。 首 先 ， 利 用 FastText 将 文档 集 进行 词 向 量 表征 ; 其 次 ， 基 于 隐 含 主题 分 布 思 想 和 利用 词汇 间 语 义 性 的 差异 ， 构 
建 TextRank 的 转移 概率 和 王 阵 ; 最 后 ， 进 行 词 图 的 选 代 计算 和 关键 词 抽 取 。 实 验 结果 表明 ， 该 方法 的 抽取 效果 相 比 于 传 
统 方 法 有 明显 提升 ， 同 时 证 明 利用 词 向 量 能 简单 而 有 效 的 改善 TextRank 算法 的 性 能 。 
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Keyword extraction method based on word vector and textrank 
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(International School of Software, WuHan University, Wuhan 430072, China) 


Abstract: The influence of lexical semantic difference on TextRank algorithm is studied, this paper presents a keyword 
extraction method based on word vector and TextRank. Firstly, it used FastText to represent word vector from the document 
corpus. Then, based on the idea of implicit subject distribution and used the differences in lexical semantics to build a probability 
transfer matrix for TextRank. Finally, iterative calculate the lexical graph model and extracted keywords. Experimental results 
show that the extraction performance of this method is significantly improved compared with the traditional method. In addition, 
it is proved that the use of word vectors can improve the performance of TextRank algorithm simply and effectively. 
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Tag 值 结果 融合 ， 提 出 了 新 的 Tag-TextRank 算法 ， 李 跃 鹏 等 人 
[0 利用 word2vec 训练 得 到 的 词 向 量 ， 计 算 词语 的 相似 度 然后 

关键 词 抽取 在 文本 处 理 的 许多 领域 中 是 一 项 重要 技术 , 如 : 通过 词语 聚 类 进行 关键 词 抽取 ; 姜 芳 等 人 0 通过 计算 词语 的 语 
文本 聚 类 、 文 本 摘要 和 信息 检索 。 在 当下 大 数据 时 代 ， 关 键 词 义 距 离 对 词语 进行 密度 聚 类 ， 得 到 主题 相关 类 ， 然 后 从 中 选取 
抽取 更 是 在 NLP 领域 扮演 着 重要 角色 , 为 情感 分 析 、 语 义 分 析 、 中 心 词 作为 关键 词 ; Ortega 和 Fermin 等 人 [1% 利用 标记 过 的 语 
知识 图 谱 等 热点 问题 提供 了 基石 。 目 前 该 领域 主流 代表 的 方法 料 库 将 TextRank 算法 从 无 监督 变 为 有 监督 算法 , 从 而 达到 提升 
有 基于 隐 含 主题 模型 的 关键 词 抽取 (CLDAI)、 基 于 TF-IDF 喇 词 效果 的 目的 。 


0 引言 


频 统 计 的 关键 词 抽取 和 基于 词 图 模型 的 关键 词 抽取 上 述 研 究 将 三 种 主流 算法 单独 或 者 组 合 改进 达到 提升 效果 
CTextRankD])。 的 目的 ， 但 是 在 这 三 种 主流 算法 中 效果 较为 明显 且 不 依赖 其 他 
以 上 的 三 种 算法 因 其 简洁 而 有 效 ， 所 以 被 广泛 运用 。 为 了 文档 的 是 TextRank 算法 , 这 也 是 该 算法 最 大 的 优点 。 该 算法 从 


进一步 提升 抽取 效果 ， 刘 俊 等 人 外 利用 主题 模型 中 词 和 主题 的 。 了 PageRank 算法 149 得 到 启发 而 来 ，TextRank 算法 是 用 于 文本 的 
分 布 情况 计算 词 的 主题 特征 ， 并 将 该 特征 与 关键 词 抽取 中 的 常 ”基于 图 的 排序 算法 ， 通 过 将 文本 切 分 成 单独 的 词语 ， 通 过 词 共 
用 特征 结合 ， 用 装 袋 决策 树 方法 ， 构 造 一 个 关键 词 抽取 模型 ， 岗 关 系 建立 词 图 模型 ， 利 用 投票 原理 将 文本 中 的 重要 词语 进行 
罗 燕 等 辐 利 用 词 频 统计 规律 改进 传统 的 TF-IDF 算法 , 提升 了 关 排序， 最 终 达 到 抽取 关键 词 的 目的 。 关 键 词 是 来 源 于 当前 文档 
键 词 抽取 效果 ， 耿 焕 同等 人 中 在 词 频 统 计 的 基础 上 结合 词 共 现 。 上 且 能 描述 文档 主题 的 一 系列 词语 ， 所 以 仅仅 是 考虑 词语 的 位 置 
图 来 找 出 频率 较 低 的 主题 词 来 提升 结果 ; 顾 益 军 和 夏天 I!” I 分别 。 关系 是 不 够 的 ， 本 文 从 隐 伟 主题 分 布 思 想得到 启发 :一 篇 文档 
利用 LDA 和 词 向 量 聚 类 结合 TextRank 进行 关键 词 抽取 ; 李鹏 包含 有 多 个 隐 含 主题 ， 每 个 隐 含 主题 下 又 包含 有 多 个 文档 中 的 
等 人 加 用 Tag 值 改进 文档 图 节点 的 边 权 值 的 计算 ， 并 且 将 不 同 。 词语 ， 不 同 主题 之 间 的 词语 具有 明显 的 语义 差异 性 ， 而 一 篇 文 
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具有 多 个 隐 含 主题 ， 关 键 词 也 来 源 于 这 些 隐 含 主题 ， 所 以 本 
2 


文 提 出 以 下 方法 : 首先 利用 FastText 工具 来 训练 


Ee 


终 提升 关键 词 抽取 效果 。 通 过 
行 性 ， 简 单 而 有 效 的 提升 了 原 


的 二 
有 算法 的 效果 。 


1 ”方法 原理 及 流程 


类 得 词 
向 量 , 利用 词 向 量 计算 词汇 间 的 语义 性 差异 来 改进 TextRank 中 
词语 的 转移 概率 矩阵 ， 让 权重 更 多 的 转移 给 语义 性 差异 更 大 的 
司 语 ， 从 而 能 增加 从 不 同 隐 含 主题 中 抽取 到 关键 词 的 概率 ， 最 
年 验证 明了 本 文 所 提出 方法 的 可 


一 篇 文章 往往 包含 着 不 同 的 主题 ， 而 关键 词 也 是 来 源 于 这 
些 不 同 的 主题 ， 从 理论 和 实际 来 看 ， 这 些 关 键 词 从 语义 的 角度 


分 析 大 部 分 的 语义 差异 性 很 明显 ， 所 以 这 是 一 个 特性 。 


TextRank 算法 中 ,文档 中 的 词语 是 通过 共 现 关系 来 构 


通过 平均 转移 概率 矩阵 进行 迭代 计算 每 个 词语 权重 ， 最 终 收 敛 
后 , 将 权重 进行 排序 ,选择 TopK 个 词语 作为 关键 词 。 这 样 的 做 
法 很 容易 将 在 文档 中 出 现 频率 高 的 词语 抽取 出 来 ， 但 是 一 篇 文 
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档 的 关键 词 不 仅仅 是 出 现 频 率 高 的 ， 而 且 有 时 候 出 现 频率 高 的 


上 


词语 却 不 一 定 是 关键 词 。 语 言 文字 是 高 度 抽象 的 符号 ， 所 以 从 


语义 角度 分 析 一 篇 文档 的 关键 词 很 重要 。 综 合 以 上 论述 ， 本 文 


就 从 隐 含 主题 分 布 思想 和 语义 差异 性 角度 提出 了 基于 词 向 量 和 


TextRank 的 关键 词 提 取 方 法 。 


方法 的 流程 分 为 两 步 : a) 利 用 FastText 工具 对 文档 数据 和 
进行 训练 ， 得 到 词 向 量 表征 ; b) 计 算 当 前 文档 中 各 个 词语 的 f 


uy 


余弦 位 距 ， 也 就 是 对 词语 的 语义 差异 性 进行 量化 ， 用 


原始 TextRank 算法 的 权重 转移 概率 矩阵 进行 改进 , 迭代 计算 至 


该 结果 对 


收敛 , 提取 TopK 个 词语 作为 关键 词 。 方 法 的 流程 如 图 


文档 数据 集 


单 篇 文档 分 词 处 理 TextRank, 
TopK 
个 关键 词 


图 1 关键 词 抽取 流程 示意 图 


2 FastText 生成 词 向 量 


1 所 示 。 


FastText 是 Facebook 开发 的 一 款 快 速 文 本 分 类 工具 ， 简 洁 


而 高 效 的 解决 了 文本 分 类 和 表征 学 习 的 问题 。 实 际 上 ， 该 项 


分 为 两 个 部 分 ， 相 关内 容 为 文献 [15,16]， 在 此 ， 本 文 3 


文献 [15] 的 相关 研究 结论 。 


词 向 量 是 使 用 向 量 来 表达 词语 ， 这 类 方法 中 目前 较为 H 


的 是 2013 年 Mikolov 等 人 提出 的 Word2vec， 它 基于 浅 层 神 


要 利用 


ChinaXiv 合 作 期 刊 


周 锦 章 ， 等 : 基于 词 向 量 与 TextRank 的 关键 词 提取 方法 


网 络 训练 语 料 ， 将 词语 嵌入 到 相应 维度 的 空间 中 ， 得 到 的 结果 
就 是 词 向 量 。 利 用 FastText 具 生 成 词 向 量 是 基于 
CBOW(Continuous Bag-of-Words) 模 型 和 Skip-gram 模型 。 
CBOW 是 根据 上 下 文 的 词语 预测 当前 词语 出 现 概 率 的 模 
型 。 如 图 2 所 示 ， 该 模型 总 共 分 为 三 层 : 输入 层 、 投 影 层 和 输 
出 层 。 
a) 输 入 层 即 为 当前 单词 周围 的 4 个 单词 的 词 向 量 ， 记 当前 
词语 为 wo) ， 则 周围 的 4 个 词语 可 以 记 为 ... wt-2D，w(1-D， 
wD) ,w(t+D) ,Wt+2) ..., 那么 这 些 词 的 编码 表示 为 ...V(w(1 -2)， 
VO 一 DD) ,VOD) ,V6wE+D) ,V6wt+2) ...。 从 训练 文档 中 抽取 
NN 个 不 重复 的 词语 组 成 词汇 表 ， 对 该 词汇 表 的 所 有 词语 进行 
one-hot 编码 ， 这 就 是 将 输入 层 词 语 编码 的 过 程 。 
b) 投 影 层 即将 输入 层 的 所 有 词语 的 编码 进行 求 和 操作 。 
oc) 输出 层 即 将 语 料 中 的 全 部 词语 作为 叶子 节点 ， 词 频 作 为 
节点 的 权 ， 构 建 Huffman 树 。 


一 | 


Jr 人 ft-1/ Vr(t)) Vr(ttD) 


输入 层 
投影 层 
输出 层 


图 2 CBOW 模型 示意 图 


Skip-gram 模型 的 原理 CBOW 模型 正好 相反 ， 是 通过 当前 
词语 预测 上 下 文 。Skip-gram 模型 同样 分 为 三 层 : 输入 层 , 投影 
民 ， 输 出 层 。 如 图 3 所 示 。 

a) 输 入 层 是 当前 词语 的 one-hot 编码 。 

b) 投 影 层 是 将 输入 层 的 词语 编码 和 权重 矩阵 进行 索引 计算 ， 
得 到 当前 词语 的 词 向 量 。 

c) 输 出 层 是 一 个 softmax 分 类 回归 器 ， 每 个 节点 会 输出 0-1 
之 间 的 概率 值 ， 这 些 概 率 值 之 和 为 1 。 


四 


Ve, 


V(w(t)) 


输入 层 


投影 层 


输出 层 


图 3 Skip-gram 模型 示意 


201804.02052V1 


chinaXiv 


录用 稿 


3 ”利用 词 向 量 改 进 词 节点 权 值 


将 一 篇 文档 转换 成 词 图 模型 ， 是 将 文档 中 的 每 个 词 看 做 
个 节点 ， 每 个 节点 之 间 的 边 由 词 节 点 之 间 的 词 共 现 关系 决 定 ， 
而 节点 的 重要 性 又 由 相 邻 节点 指向 数量 决定 。TextRank 算法 的 
原始 数学 表示 如 式 (1) 所 示 。 


TVW 
WS(V)=(-4d)+d*>, 一 


jeln(vi) 


ws) (0) 


veOu(v I) WA 


构建 关键 词 图 G=(V,E) ， 其 中 V 为 节点 集合 ，E 为 节点 之 
间 的 边 集合 。1n(w) 是 指向 节点 VW 的 节点 ，0ut0j) 是 节点 Vj 指向 
的 节点 ，wi 、wx 是 两 节点 之 间 的 边 权 ，WSWV) 是 Vi 节点 的 权 
重 ，4d 是 阻尼 系数 ， 一 般 取 值 为 0.85， 其 意义 是 当前 节点 向 其 
他 任意 节点 跳 转 的 概率 ， 同 时 能 够 让 权重 能 够 稳定 的 传递 至 收 
敛 。 


I 


在 利用 TextRank 算法 进行 关键 词 提取 的 主要 步骤 如 下 : 
a) 将 当前 文本 进行 整 句 分 割 ， 得 到 T=[s,,s,,…,s,]; 
b) 对 于 s; e7 ,进行 分 词 、 词 性 标注 、 停 用 词 过 滤 ， 必 要 时 可 
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根据 式 〈3)， 每 一 个 顶点 的 权 值 在 迭代 过 程 中 将 是 均匀 的 
转移 给 每 一 个 与 其 相连 的 顶点 ， 初 始 权重 转移 概率 和 矩阵 E 如 式 


(4) 所 示 。 
Ql En 
站 | (4) 
El oe Ein 


初始 权重 转移 概率 和 矩阵 E 中 元 素 的 值 由 顶点 之 间 的 边 决 
定 ， 有 则 为 1， 无 则 为 0，ew =[0,1,e, eN 。 根 据 本 文 的 设想 及 
验证 ， 本 文 提 出 利用 候选 关键 词 的 角 余弦 位 距 构建 权重 转移 概 
率 矩 阵 ， 利 用 候选 关键 词 的 角 余 弱 位 距 作为 权重 转移 概率 矩阵 
中 的 元 素 的 值 , 候选 关键 词 的 角 余 弦 位 距 5; 计算 如 式 (5) 所 示 。 


1 Wo 
S$; 三 一 一 5 
lh] . 


其 中 : w, 、w 为 有 相连 边 的 两 个 顶点 各 自 的 词 向 量 ， 该 

利用 FastText 利用 数据 训练 得 到 的 。 但 是 ,在 多 次 实验 过 程 中 ， 
会 出 现 无 法 收敛 的 结果 , 经 过 分 析 文 献 [14], 是 因为 在 连通 图 结 
构 中 ， 如 果 有 顶点 的 出 度 为 0， 在 经 过 有 限 次 迭代 过 程 后 ， 所 


添加 特定 停 用 词 词典 ， 最 后 得 到 w%=[duda…'d] ，d es; 为 处 理 
后 的 候选 关键 词 ; 


有 的 顶点 的 值 将 变 成 0, 这 被 称 为 “等 级 泄漏 >"。 经 过 实验 设计 ， 
为 避免 这 一 问题 ， 将 上 式 中 的 概率 转移 矩阵 进行 调整 ， 将 每 一 


0) 构 建 关 键 词 词 图 G=(V,E) ， 其 中 Y 为 候选 关键 词 节点 集 
合 ，E 为 候选 关键 词 之 间 的 边 集合 ， 边 的 有 无 由 候选 关键 词 的 
共 现 关系 决定 ， 共 现 则 有 边 ， 否 则 无 ; 

中 根据 上 面 公 式 ， 和 迭代 传播 候选 关键 词 节 点 V 的 权重 ， 直 
至 收敛 

e) 得 到 所 有 候选 关键 词 节点 中 的 权重 ， 
到 TopK 个 词 作为 最 终 关键 词 。 

上 述 过 程 为 一 般 TextRank 算法 提取 关键 词 过 程 。 在 
TextRank 算法 中 ， 需 要 迭代 计算 候选 关键 词 的 权重 直至 收敛 ， 
该 过 程 被 称 为 马尔 可 夫 过 程 ， 它 的 数学 解释 是 : 在 已 知 目前 状 
态 的 条 件 下 ， 它 未 来 的 演变 不 依赖 于 它 以 往 的 演变 ， 所 以 返 代 
结果 将 与 候选 关键 词 的 初始 权重 以 及 边 的 权重 无 关 ， 而 将 只 与 
候选 关键 词 权重 转移 概率 矩阵 有 关 。 在 TextRank 算法 中 , 候选 
关键 词 之 间 的 边 由 共 现 关系 决定 ， 而 对 共 现 关系 有 重要 影响 的 
参数 是 共 现 窗口 window， 其 大 小 为 w， 表示 每 次 最 多 出 现 w 个 
词语 ， 通 过 每 次 向 右 滑动 一 个 窗口 来 建立 词语 间 的 共 现 关系 ， 
最 终 以 此 来 构建 权重 转移 概率 矩阵 。w 的 大 小 需要 通过 实验 取 
得 ， 过 小 会 导致 权重 转移 概率 矩阵 稀疏 ， 过 大 会 导致 权重 转移 
概率 矩阵 稠密 ， 两 种 情况 均 会 导致 抽取 结果 误差 较 大 。 

同时 根据 文献 [1]， 边 权 的 值 对 收敛 结果 没有 影响 ， 所 以 在 
本 文 实验 中 ， 所 有 具有 共 现 关系 的 顶点 之 间 的 边 权 值 设 为 1， 


行 降序 排列 ， 得 


oa 
汪 J 


每 个 顶点 的 初始 权重 设 为 (7 为 顶点 个 数 )。 则 上 式 转换 为 


WS(V)=(1-d)+tad* Da [Ga j WS(V,) (2) 


在 实际 运算 过 程 中 采用 的 是 矩阵 运算 ， 则 上 式 转换 为 
WS(V)=( -qd)+d*E*WS(V,) (3) 


元 素 加 上 所 在 列 所 有 元 素 和 sum(E,) 所 得 的 值 作为 每 一 元 素 的 
最 终 值 。 则 上 式 转变 如 下 : 


js (E,) 
Sy 三 外 一 一 i (6) 
加 本 
最 终 改 进 的 权重 转移 概率 矩阵 M 如 下 : 
M =| : : (7) 


最 终 的 矩阵 运算 公式 如 下 : 
WS(V)=(1-d)+d*M *WS(V,) (8) 

利用 以 上 的 式 (8) 设计 实验 , 连 代 次 数 的 上 限 值 了 =100， 
收敛 误差 为 0.0001， 最 终 提取 TopK 个 词语 为 该 文档 的 关键 词 。 


4 ”实验 结果 与 分 析 


4.1 实验 数据 及 评价 标准 

本 文 使 用 来 自 搜狗 实验 室 的 全 网 新 闻 数 据 共 1.4 GB 作为 
FastText 的 训练 集 ， 数 据 包含 了 来 自若 干 新 闻 站 点 2012 年 6 月 
一 7 月 期 间 国内 ， 国 际 ， 体 育 ， 社 会 ， 娱 乐 等 18 个 频道 的 新 闻 
数据 。 随 机 抽取 字数 在 500 以 上 的 新 闻 内 容 作 为 测试 集合 ， 共 
计 70 篇。 在 内 存 为 16 GB， 系 统 为 Ubuntu16.04LTS 的 计算 机 
上 ， 训 练 FastText 词 向 量 模型 用 时 两 小 时 ， 获 得 词 向 量 模型 文 
件 大 小 为 3.8 GB。 针 对 测试 集 ， 采 用 多 人 人 工交 叉 标 注 的 形式 
提取 新 闻 关 键 词 ， 每 篇 新 闻 人 工 提取 10 个 关键 词 作为 人 工 标 
注 的 结果 集 (通常 10 个 关键 词 足以 概括 一 篇 新 闻 主 要 内 容 )。 

基于 FastText 结合 TextRank 算法 进行 关键 


可 
于 
妆 
出 
这 
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人 


词 抽 取 。 
除 此 之 外 ， 基 于 相同 的 测试 集 ， 采 】 


传统 的 TF-IDF、 
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TextRank、FastText 结合 TextRank 模型 结果 做 交叉 对 比 。TF- IDF 算法 和 TextRank 算法 。 
IDF 以 及 TextRank 算法 按照 Python 开源 第 三 方 工 具 进 行 验 证 ， 此 外 ， 对 实验 结果 产生 明显 影响 的 男 一 参数 是 共 现 窗口 
同时 在 源码 基础 上 进行 优化 实现 FastText 的 融合 。 按 照 信 息 检 window， 共 现 窗口 大 小 决定 了 权重 转移 概率 矩阵 的 稠密 ， 从 而 


索 中 的 精确 率 P、 召 回 率 R 以 及 F 值 进行 统计 对 比 ， 三 种 指标 影响 抽取 结果 ， 同 时 设置 抽取 关键 词 个 数 k=10 的 情况 下 ， 以 
计算 公式 如 下 : 下 图 5 是 不 同 共 现 窗口 大 小 w 值 下 TextRank 算法 和 FT 
p -入 (人 工 标注 集合 个 抽 取 集 合 ) TextRank 算法 的 抽取 结果 下 值 的 对 比 图 。 
N( 抽 取 和 集合 ) 名 
_N( 人 工 标注 集合 全 抽取 集合 ) 
N( 人 工 标注 集合 ) 
2# 书 # 民 
P+R (1D 
4.2 实验 结果 
在 此 次 实验 中 ， 有 两 个 参数 影响 着 TextRank 算法 和 FT- —— TextRank 


TextRank (本 文 提 出 的 算法 ，FastText-TextRank， 以 下 简称 FT ee FT-TextRank 
TextRank) 实验 的 结果 , 一 个 是 关键 词 个 数 key， 另 一 个 是 共 现 

窗口 大 小 window， 初 始 设置 为 w=8， 而 TF-IDF 算法 是 属于 传 
统统 计算 法 ,算法 实现 无 这 一 参数 ,本 文 利用 控制 变量 的 原则 ， 


妈 5 不 同 w 值 抽取 结果 FF 值 


进行 了 相关 实验 。 以 下 表 1、 图 4 中 的 结果 均 是 在 w=8 下 的 实 5 可 以 看 出 随 着 w 值 的 增加 ，TextRank 算法 的 抽取 结 
验 完 成 的 。 F 值 在 降低 ， 而 本 文 提出 的 FT-TextRank 算法 下 值 在 增加 ， 在 
表 1 实验 抽取 结果 w=8 时 ， 效 果 最 好 。 
数 / 个 y 0 0 0 本 
抽取 数 /个 算法 P/%6 R/% F/% 5 ”结束 语 
TF-IDF 51.42 25.72 34.29 
5 TextRank 5371 2686 3581 一 篇 文档 的 关键 词 是 该 文档 主题 内 容 的 直接 反映 ， 所 以 算 
FTTextRank 5486 2743 3657 法 提取 关键 词 的 结果 需要 能 相对 准确 地 体现 出 文章 的 主题 内 容 。 
TFIDF 4408 3085 3630 但 是 文字 是 高 度 抽象 的 符号 ， 是 人 类 特有 的 属性 ， 包 含有 丰富 
7 TextRank 4876 3414 4016 的 语义 ， 所 以 需要 翻译 成 机 器 容易 理解 的 表达 。 因 为 FastText 
FTTextRank 5143 3600 4235 工具 优异 的 性 能 ， 同 时 能 得 到 更 好 的 词 向 量 表征 ， 所 以 基于 隐 
TF_IDF 3642 3657 3649 含 主题 分 布 的 思想 和 利用 词语 的 语义 性 差异 能 提升 关键 词 抽取 
时 了 的 效果 。 
extRank 41.43 41.43 41.43 
FTTextRank 4729 4729 4729 实验 结果 表明 ， 本 文 提出 的 改进 方法 ， 能 够 提升 结果 的 准 
确 性 。 接 下 来 的 工作 是 考虑 优化 词 向 量 模型 ， 使 得 词 向 量 能 包 


含 更 丰富 的 语义 特征 来 进一步 提高 关键 词 抽取 的 效果 。 同 时 ， 
因为 目前 还 没有 标准 的 测试 集 ， 而 且 考虑 到 语义 的 相似 性 ， 准 
备 改 进 实验 结果 的 评价 方法 ， 结 合 词语 语义 的 相似 度 来 对 结果 
的 准确 度 进 行 优化 。 
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